大数据、数仓成神之路,冲击30k就靠它了!(送书福利)
点击上方蓝色字体,置顶/星标哦
目前10000+人已关注加入我们
Oct 11
♪
说两句 Qian Yan
乌云蔽月,人迹踪绝,大数据成神之路
金九银十,很多朋友在后台/微信问我,学习/转型大数据数仓、大数据开发(仓库平台开发)帮忙推荐几本书,唯恐误人子弟,我在群里搞了个投票,结果也和我想推荐给大家的学习书籍不谋而合。(文末有劲爆福利~)
作为转型、入门、进阶大数据数据仓库,以上3本是相当经典的!建议找个时间,认真的至少读一遍这3本书,读的同时一定要思考!思考中去理解!
数仓调研(业务调研、需求调研、数据调研),划分主题域。构建总线矩阵,维度建模(星型模型、四步建模)。数仓分层架构(ods-dwd-dws-ads),定制规范(命名规范、模型规范、开发规范、流程规范)。数据治理(数据质量,数据安全,元数据管理,主数据管理)。BI可视化,OLAP多维分析。调度系统,资源管理。用户画像,推荐系统。数据湖与数据中台。
学而不思则罔01.《数据仓库工具箱 3rd:维度建模权威指南》
《数据仓库工具箱(第3版):维度建模权威指南》 『Ralph Kimball』 『清华大学出版社』
经典中的经典!
随着TheDataWarehouseToolkit(1996)第1版的出版发行,RalphKimball为整个行业引入了维度建模技术。从此,维度建模成为一种被广泛接受的表达数据仓库和商业智能(DW/BI)系统中数据的方法。该经典书籍被认为是维度建模技术、模式和实践的资源。
该书汇集了到目前为止全面的维度建模技术。
该书采用新的思路和实践对上一版本进行了全面修订,给出了设计维度模型的全面指南,既适合数据仓库新手,也适合经验丰富的专业人员。
该书涉及的所有技术都基于作者实际从事DW/BI的设计经验,通过实际案例加以描述。
该书主要内容:
实用设计技术——有关维度和事实表的基本和高级技术。
14个案例研究,涉及零售业、电子商务、客户关系管理、采购、库存、订单管理、会计、人力资源、金融服务、医疗卫生、保险、教育、电信和运输等。
为12个案例研究提供了数据仓库总线矩阵示例。
需要避免的维度建模陷阱和错误。
增强的缓慢变化维度(SCD)技术类型0~类型7。
用于处理参差不齐的可变深度层次和多值属性的桥接表大数据分析的实践。与业务参与方合作、交互设计会议的指南。
有关KimballDW/BI项目生命周期方法论的概论。
对ETL系统和设计思考的总结构建维度和事实表的34个ETL子系统和技术。
02.《数据仓库(第4版)》
《数据仓库(第4版)》 『Inmon』 『机械工业出版社』
本书是数仓之父Inmon所著,被誉为数据仓库的“圣经”。
系统讲述数据仓库的基本概念、基本原理以及建立数据仓库的方法和过程。主要内容包括;决策支持系统的发展、数据仓库环境结构、数据仓库设计、数据仓库粒度划分、数据仓库技术、分布式数据仓库、EIS系统和数据仓库的关系、外部和非结构化数据与数据仓库的关系、数据装载问题、数据仓库与Web、ERP与数据仓库以及数据仓库设计的复查要目。
03.《大数据之路:阿里巴巴大数据实践》
《大数据之路:阿里巴巴大数据实践》 阿里巴巴 『电子工业出版社』
阿里巴巴大数据实践,是ali数据技术及产品部沉淀下来的大数据知识与实践,值得每一位与大数据相关的人阅读。
经过多年的实践,数据技术及产品部已经构建了从底层的数据采集、数据处理,到挖掘算法、数据应用服务以及数据产品的全链路、标准化的大数据体系。
ps:貌似市面上已断货?难道是因为太抢手,unknown
04.《Hadoop构建数据仓库实践》
《Hadoop构建数据仓库实践》 王雪迎 『清华大学出版社』
本书讲述在流行的大数据分布式存储和计算平台Hadoop上设计实现数据仓库,将传统数据仓库建模与SQL开发的简单性与大数据技术相结合,快速、高效地建立可扩展的数据仓库及其应用系统。
本书内容包括数据仓库、Hadoop及其生态圈的相关概念,使用Sqoop从关系数据库全量或增量抽取数据,使用HIVE进行数据转换和装载处理,使用Oozie调度作业周期性执行,使用Impala进行快速联机数据分析,使用Hue将数据可视化,以及数据仓库中的渐变维(SCD)、代理键、角色扮演维度、层次维度、退化维度、无事实的事实表、迟到的事实、累积的度量等常见问题在Hadoop上的处理等。
05.《离线和实时大数据开发实战》
《离线和实时大数据开发实战》 朱松岭(花名邦中)阿里系 『机械工业出版社』
庖丁解牛式讲解离线、实时开发平台架构、原理、查询与优化、建模、数仓开发、流计算开发等核心技术。
从整体上给出数据大图和数据平台大图,主要介绍数据的主要流程、各个流程的关键技术、数据的主要从业者及他们的职责等;数据平台大图分离线和实时分别给出数据平台架构、关键数据概念和技术等;
然后介绍离线数据开发的主要技术,包含Hadoop、Hive、维度建模等,另外此部分还将综合上述各种离线技术给出离线数据处理实战;
最后集中介绍实时数据处理的各项技术,包含SparkSteaming、Flink、Storm、Beam等。
01. 文末留言点赞,前5名即可领取文中任意1本经典正版图书书籍(包邮)。
02. 公众号后台回复「加群」,或添加小助微信ID:iom1128 拉您入群。
技术大佬们在等你,各种资源定期分享~ 数仓社区,全力助你冲击30k!
【中奖同学,以上8本,可任选1本】
规则如下:
赠书福利!
【1】关注本公众号,并在下方留言区留言,谈谈你对大数据或数仓的理解
【2】留言点赞最高的前5名读者,且不少于30个赞,可获赠正版图书任意1本。
按留言点赞排名,排名靠前的同学优先自由任意选择喜欢的图书(上面8本),以此下推。
【3】活动截止日期:10月13日 12:00
【4】活动结束后,收到中奖通知的朋友 请加微信:iom1128,备注「中奖」
【5】急于购书的朋友也可以点击上图京东直接购买。
关注不迷路,Follow Me... 等你来撩~
福利不断,送书、送门票、送资料,各种资源定期分享!
!关注不迷路~ 各种福利、资源定期分享!